روشی کارا برای کاوش مجموعه اقلام پرتکرار در تحلیل داده های سبد خرید

Authors

s.m. fakhrahmad

m.h. sadredini

m. zolghadri jahromi

abstract

کشف الگوهای پنهان و ارزشمند از درون حجم وسیعی از داده­های خام، اخیراً توجه بسیاری از محققان را به خود جلب کرده­است. اغلب روشهای کاوش قوانین تداعی در مرحله اول کار خود کلیه اقلام پرتکرار (ساده و ترکیبی) را از بین تمام اقلام موجود در داده­ها جستجو می­کنند که این امر نیازمند به خواندن مکرر کل داده­ها از دیسک است. در مسائل داده­کاوی، حجم پایگاه داده­های تراکنش معمولاً آنقدر زیاد است که قابل بار شدن در حافظه اصلی نمی­باشند. اما در برخی موارد مانند پایگاه داده­های تحلیلی مربوط به سبدهای خرید یک فروشگاه، با توجه به تعداد نسبتا زیاد اقلام ممکن (کل اجناس فروشگاه) و نیز محدودیت نسبی اندازه تراکنش­ها (اقلام خریداری شده در هر سبد)، احتمال رخداد یک قلم داده (خریداری شدن یک کالای خاص) پایین است. در این مقاله با بهره­گیری از این ویژگی، روشی کارا برای کاوش اقلام پرتکرار در مجموعه داده­هایی از این قبیل ارائه می­دهیم. در روش پیشنهادی، داده­ها تنها یک بار از دیسک خوانده می­شوند و بعد از آن به یک ساختار رمز شده و خلاصه تبدیل می­گردند، بطوریکه اولاً قابل نگهداری در حافظه می­باشند و ثانیاً با توجه به ساختار خاصی که دارند، عملیات شمارش به سریع­ترین نحو ممکن انجام می­گردد و زمان شمارش دفعات تکرار اقلام در هر مرحله کمتر از مرحله قبل می­شود. پس از ارائه الگوریتم، کارایی آن را با استفاده از دو مجموعه از داده­های ساختگی و واقعی ارزیابی کرده و با چند روش کارا که تاکنون ارائه شده­اند، مقایسه می­کنیم.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

روشی کارا برای کاوش مجموعه اقلام پرتکرار در تحلیل داده‌های سبد خرید

Discovery of hidden and valuable knowledge from large data warehouses is an important research area and has attracted the attention of many researchers in recent years. Most of Association Rule Mining (ARM) algorithms start by searching for frequent itemsets by scanning the whole database repeatedly and enumerating the occurrences of each candidate itemset. In data mining problems, the size of ...

full text

تجزیۀ نامنفی ماتریسی: روشی برای تحلیل داده های نامنفی

اخیراً روش جدیدی با نام تجزیۀ نامنفی ماتریسی برای نمایش خطی داده های نامنفی پیشنهاد شده است که علاوه بر کاهش تعداد داده ها، محدودیت روش های کلاسیک را ندارد. در این روش، ماتریس بزرگِ متناظر با  داده های نامنفی به دو ماتریس نامنفی کوچک تجزیه می شود. در این مقاله، ابتدا روش های کلاسیک را مرور می کنیم. سپس تجزیۀ نامنفی ماتریسی با نسخه های مختلف آن معرفی و مسائل مهم داده کاوی مانند رده بندی و خوشه بند...

full text

ارائه روشی کارا برای تکرار داده ها در گریدهای داده

گرید داده یک محیط توزیع شده است که با کاربردهای داده متمرکز با حجم بالا سروکار دارد. تکرار داده یکی از تکنیک های کلیدی بهینه سازی برای کاهش تأخیر دستیابی و مدیریت داده های حجیم از طریق ذخیره کردن هوشمندانه کپی های داده است. اگر چه تکرار داده از تکنیک های کلیدی است اما مسئله ی انتخاب محل های مناسب برای قرارگیری تکرارها یعنی مکان یابی تکرار در گرید داده هنوز به صورت وسیعی بررسی نشده است. الگوریتم...

15 صفحه اول

روشی جدید در تعیین ورشکستگی با استفاده از تحلیل پوششی داده ها و تئوری مجموعه های راف فازی

در شرایط متغیر اقتصادی و نوسانات شدید مالی در محیط های تجاری، وجود الگوهایی برای پیش بینی عملکرد مالی شرکتها از اهمیت بسزایی برخوردار است. یکی از این موارد پیش بینی وقوع بحران مالی و به عبارت دیگر ورشکستگی است. تحلیل پوششی داده ها (DEA) یک ابزار قدرتمند در اختیار مدیران است که عملکرد شرکت خود را در فعالیت های تجاری محک بزنند. مدلهای مرسوم تحلیل پوششی داده ها ارزیابی کارایی نسبی واحدهای تصمیم گی...

full text

بهبود عملکرد واحدهای تصمیم‌گیرنده کارا با استفاده از روش تقاطع ابرصفحه‌های سازای مجموعه امکان تولید در تحلیل پوششی داده ها

تحلیل پوششی داده ها (DEA) یک تخمین‌گر است. این تخمین‌گر سعی می کند که یک ارتباط بین ورودی های متعدد و خروجی های متعدد و همچنین تکنولوژی تولید را تخمین بزند. DEA واحدهای تصمیم گیرنده (DMU) را به دو بخش واحدهای کارا و واحدهای ناکارا تقسیم بندی می‌کند. در این صورت واحدهای کارا مرجعی برای واحدهای ناکارا خواهد بود. در مدل‌های سنتیDEA بهبود کارایی تنها برای واحدهای ناکارا صورت می گیرد و واحدهای کارا ...

full text

تجزیۀ نامنفی ماتریسی: روشی برای تحلیل داده های نامنفی

اخیراً روش جدیدی با نام تجزیۀ نامنفی ماتریسی برای نمایش خطی داده های نامنفی پیشنهاد شده است که علاوه بر کاهش تعداد داده ها، محدودیت روش های کلاسیک را ندارد. در این روش، ماتریس بزرگِ متناظر با  داده های نامنفی به دو ماتریس نامنفی کوچک تجزیه می شود. در این مقاله، ابتدا روش های کلاسیک را مرور می کنیم. سپس تجزیۀ نامنفی ماتریسی با نسخه های مختلف آن معرفی و مسائل مهم داده کاوی مانند رده بندی و خوشه بند...

full text

My Resources

Save resource for easier access later


Journal title:
بین المللی مهندسی صنایع و مدیریت تولید

جلد ۱۹، شماره ۷، صفحات ۶۵-۷۴

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023